#ICLR 2026

1件の記事

Googleが2026年3月発表のTurboQuantを解説。KVキャッシュを3ビットに圧縮しメモリ6分の1・推論8倍速を精度劣化なしで実現。ローカルLLMやAPI利用コストへの影響も検証。

Google TurboQuant完全解説｜LLMを6倍圧縮・8倍高速化する新アルゴリズム